Przygotowanie modelu

Source: https://stackoverflow.com/questions/65231299/load-csv-and-image-dataset-in-pytorch

Source: https://blog.jovian.ai/predicting-bird-species-with-pytorch-41ee657e8749

Predykcje modelu

Przy wyjaśnieniach skupimy się na dwóch gatunkach - American Redstart i Andean Siskin. Oba są dobrze rozróżnialne dla człowieka, i jesteśmy w stanie zkwantyfikować poszczególne cechy świadczące o przynależności danego osobnika do tego gatunku (np. pomarańczowe plamy dla Redstart, żółto-czarne upierzenie dla Siskin).

W analizie wykorzystamy także trzeci gatunek ptaka - Apostlebird. Jest on znacząco różny od tych które chcemy rozważać, a sieć jest w stanie go z dużą pewnością odróżnić. Posłuży nam to za baseline do zrozumienia wyjaśnień - wyjaśnienia związane z tą klasą powinny być bezsensowne. Wzorce które zauważymy także na tej klasie będą nieistotne w rozważanym przez nas problemie, i będą głównie spowodowane ludzką tendencją do widzenia wzorców które niekoniecznie muszą istnieć.

Wyjaśnienia modelu

Shap

W przypadku poprawnie zaklasyfikowanych American Redstart widzimy duże znaczenie pomarańczowych plam w upierzeniu - jest to faktycznie cecha znacząca dla tego gatunku, więc jest to zachowanie wskazane.

W przypadku Andean Siskin też widać mocną zależność, sieć skupia się na jasno żółtym podbrzuszu ptaka. Ponownie, jest to cecha rozróżniająca, więc takie zachowanie jest wskazane.

Jednak w przypadku błędnych klasyfikacji zachowanie jest inne. Dla Siskina zaklasyfikowanego jako Redstart, duże znaczenie ma tło bezpośrednio pod ptakiem, prawdopodobnie gałąź na której miałby siedzieć. W przypadku drugiej błędnej klasyfikacji także widać że bardzo duże znaczenie ma tło, tutaj jednak trudniej domyślić się przyczyny tego zjawiska.

Integrated Gradients

W porównaniu do metody shap, tutaj bardziej widoczne są plamy intensywnych kolorów w upierzeniu ptaków. Jednak wnioski co do poprawnych klasyfikacji zostają w dużej mierze takie same.

W przypadku błędnych klasyfikacji trudniej zauważyć zależności z tłem które wcześniej zostały zaobserwowane. W przypadku Andean Siskin zaklasyfikowanego jako American Redstart widać tutaj duże znaczenie drutu na którym ptak się znajduje, co nie jest czymś co było widoczne w poprzednich wyjaśnieniach.

Lime

W porównaniu do dwóch poprzednich wyjaśnien, lime poradził sobie zdecydowanie najgorzej. Dla wielu ze zdjęć nie był wstanie utworzyć żadnego wyjaśnienia. Najprawdopodobniej jest to związane ze specyfiką problemu oraz wyborem zdjęć do wyjaśnienia. To co warto zauważyć to to, że wyjaśnienia wygenerowały się specyficznie dla zdjęć zaklasyfikowanych jako American Redstart.

Natomiast co do jakości wyjaśnień nie można być pewnym, widać pewne zależności które zostały potwierdzone poprzednimi dwoma metodami, jednak na typ etapie analizy może to być także bias obserwatora do potwierdzenia wcześniej wyciągniętych hipotez.